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Association rule learning in data mining 
Abstract 


Association rule learning is a rule-based machine learning method for discovering 
interesting relationships between variables in large databases. It is intended to identify strong rules 
discovered in databases using some measures of interest. Based on the concept of strong rules, 
association rules were introduced to discover regularities between products in large-scale 
transaction data recorded by supermarket point-of-sale systems. Such information may be used as 
a basis for decisions regarding marketing activities, such as, for example, promotional pricing or 
product placements. În addition to the above example from market basket analysis, association 
rules are used in many fields today, including web mining, intrusion detection, continuous 
manufacturing, and bioinformatics. 

Article source: Drew Bentley, Business Intelligence and Analytics. O 2017 Library Press, 
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Rezumat 


Învăţarea regulilor de asociere este o metodă de învățare automată bazată pe reguli pentru 
a descoperi relaţii interesante între variabilele din bazele de date mari. Este destinată să identifice 
reguli puternice descoperite în bazele de date folosind unele măsuri de interes. Pe baza conceptului 
de reguli puternice, s-au introdus reguli de asociere pentru descoperirea regularităților dintre 
produse în datele tranzacţiilor la scară largă înregistrate de sistemele de puncte de vânzare din 
supermarketuri. Astfel de informaţii pot fi folosite ca bază pentru deciziile cu privire la activităţile 
de marketing, cum ar fi, de exemplu, prețurile promoţionale sau plasările de produse. În plus faţă 


de exemplul de mai sus din analiza coşului de piaţă, regulile de asociere sunt folosite astăzi în 
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multe domenii, inclusiv mineritul web, detectarea intruziunilor, producţia continuă și 
bioinformatica. 

Sursa articolului: Drew Bentley, Business Intelligence and Analytics. O 2017 Library 
Press, Licenţă CC BY-SA 4.0. Traducere şi adaptare Nicolae Sfetcu 
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Învăţarea regulilor de asociere este o metodă de învăţare automată bazată pe reguli pentru 
a descoperi relații interesante între variabilele din bazele de date mari. Este destinată să identifice 
reguli puternice descoperite în bazele de date folosind unele măsuri de interes. Pe baza conceptului 
de reguli puternice, Rakesh Agrawal et al. a introdus reguli de asociere pentru descoperirea 
regularităților dintre produse în datele tranzacţiilor la scară largă înregistrate de sistemele de 
puncte de vânzare (POS) din supermarketuri. De exemplu, regula (ceapa, cartofi) > 
(burger) din datele de vânzări ale unui supermarket ar indica faptul că, dacă un client cumpără 
ceapă și cartofi împreună, este probabil să cumpere şi carne de hamburger. Astfel de informaţii pot 
fi folosite ca bază pentru deciziile cu privire la activităţile de marketing, cum ar fi, de exemplu, 
preţurile promoţionale sau plasările de produse. În plus faţă de exemplul de mai sus din analiza 
coşului de piaţă, regulile de asociere sunt folosite astăzi în multe domeni de aplicaţii, inclusiv 
mineritul utilizării web, detectarea intruziunilor, producția continuă şi bioinformatica. Spre 
deosebire de mineritul secvenţei, învăţarea regulilor de asociere nu ia în considerare, de obicei, 


ordinea elementelor fie într-o tranzacție, fie între tranzacții. 
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Definiţie 


Exemplu de bază de date cu 5 tranzacţii și 5 articole 


ID tranzacție lapte pâine unt bere scutece 
l l l 0) 9) 0) 
2 9) 9) l 9) 9) 
3 9) 0) 0) l l 
4 l l l 9) 9) 
5 9) l 0) 0) 9) 


Urmând definiția originală a lui Agrawal şi colab., problema minării regulilor de asociere 
este definită astfel: 

Fie | = (11, b, ..-, întun set de atribute n binare numite ifemuri. 

Fie D= țti, to, ..., mt un set de tranzacții numit bază de date. 

Fiecare tranzacție din D are un ID de tranzacţie unic şi conţine un subset de articole din 7. 


O regulă este definită ca o implicaţie a formei: 


unde X, Y<lșiăNY=0. 

Fiecare regulă este compusă din două seturi diferite de elemente, cunoscute şi sub 
denumirea de seturi de itemuri, X şi Y, unde X este numit antecedent sau partea stângă (LHS) şi 
Y consecvent sau partea dreaptă (RHS). 

Pentru a ilustra conceptele, folosim un mic exemplu din domeniul supermarketurilor. Setul 
de articole este I = lapte,pâine,unt,bere,scutece! iar în tabel este prezentată o mică bază de date 
care conține articolele, unde, în fiecare intrare, valoarea 1 înseamnă prezența articolului în 


tranzacţia corespunzătoare, iar valoarea 0 reprezintă absența unui articol în tranzacţia respectivă. 
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Un exemplu de regulă pentru supermarket ar putea fi țunt, pâine! => (lapte), ceea ce 
înseamnă că, dacă se cumpără unt şi pâine, clienții cumpără şi lapte. 

Notă: acest exemplu este extrem de mic. În aplicaţiile practice, o regulă are nevoie de un 
suport de câteva sute de tranzacţii înainte de a putea fi considerată semnificativă din punct de 


vedere statistic, iar seturile de date conţin adesea mii sau milioane de tranzacții. 


Concepte utile 


Pentru a selecta reguli interesante din setul tuturor regulilor posibile, se folosesc 
constrângeri asupra diferitelor măsuri de semnificaţie şi interes. Cele mai cunoscute constrângeri 
sunt pragurile minime de sprijin şi încredere. 

Fie X un set de articole, X > Y o regulă de asociere și T un set de tranzacţii ale unei baze 


de date date. 


Suport 


Suportul este o indicație a frecvenţei cu care setul de articole apare în baza de date. 

Valoarea suport a lui X în raport cu T este definită ca proporția de tranzacţii din baza de 
date care conţine setul de articole X . În formula: supp(X)/N 

În exemplul de bază de date, setul de articole fbere,scutece! are suport, deoarece apare în 
20% din toate tranzacțiile (1 din 5 tranzacții). Argumentul supp () este un set de precondiţii şi, 


prin urmare, devine mai restrictiv pe măsură ce crește (în loc să fie mai incluziv). 


Incredere 


Increderea este un indiciu al cât de des s-a constatat că regula este adevărată. 
Valoarea de încredere a unei reguli, X > Y, în raport cu un set de tranzacţii T, este proporția 
tranzacţiilor care conţine X care conține și Y. 


Increderea este definită ca: 


conf(ă > Y) = supp(X u Y)/supp(X). 


De exemplu, regula țunt,pâine) > !lapte) are un nivel de încredere de 0,2 > în baza de 
date, ceea ce înseamnă că pentru 100% dintre tranzacţiile care conţin unt şi pâine regula este 


corectă (100% din cazurile în care un client cumpără unt si paine, cumpără şi lapte). 
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Reţineți că supp( X U Y) înseamnă suportul uniunii elementelor din X şi Y. Acest lucru 
este oarecum confuz, deoarece în mod normal gândim în termeni de probabilităţi de evenimente și 
nu de seturi de elemente. Putem rescrie supp(X U Y) ca probabilitate comună P(Ex N Ex), unde 
Ex şi Ey sunt evenimentele pentru care o tranzacţie conţine setul de articole X sau, respectiv, Y. 

Astfel, încrederea poate fi interpretată ca o estimare a probabilității condiționate P(Ev | Ex), 
probabilitatea de a găsi RHS a regulii în tranzacții cu condiţia ca aceste tranzacții să conţină și 


LHS. 


Creştere 


Creşterea (/i/?) unei reguli este definită astfel: 


lift(X > Y) = supp(X u Y) / supp(X) * supp(Y) 


sau raportul dintre suportul observat şi cel aşteptat dacă X și Y ar fi independenți. 

De exemplu, regula lapte,pâine! > (unt? are o creștere de 0,2 /0,4 x 0,4 = 1,25. 

Dacă regula ar avea o creştere de 1, ar implica faptul că probabilitatea de apariţie a 
antecedentului şi cea a consecinței sunt independente una de cealaltă. Când două evenimente sunt 
independente unul de celălalt, nu poate fi luată în considerare nicio regulă care să implice aceste 
două evenimente. 

Dacă creşterea este > 1, asta ne permite să cunoaștem gradul în care aceste două apariții 
sunt dependente una de cealaltă și face ca acele reguli să fie potenţial utile pentru prezicerea 
consecinţelor în seturile de date viitoare. 

Valoarea creșterii este că ia în considerare atât încrederea regulii, cât şi setul de date 


general. 


Convingere 


Convingerea unei reguli este definită ca conv(X > Y) = (1- supp(Y))/(1 - conf(ă > Y)). 
De exemplu, regula (lapte, pâine! > tunt! are o convingere de (1 - 0,4)/(1 - 0,5) = 172, şi 
poate fi interpretată ca raportul dintre frecvența așteptată pe care X apare fără Y (adică frecvența 
la care regula face o predicţie incorectă) dacă X și Y au fost independenţi, împărțit la frecvenţa 


observată a predicțiilor incorecte. In acest exemplu, valoarea convingerii de 1,2 arată că 
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regula (lapte, pâine! > țunt! ar fi incorectă cu 20% mai des (de 1,2 ori mai des) dacă 


asocierea între X și Y ar fi pur întâmplătoare. 


Proces 


(Setul de articole frecvente, unde culoarea casetei indică câte tranzacţii conțin combinaţia de articole. Reţineţi că 
nivelurile inferioare ale reţelei pot conţine cel mult numărul minim de articole ale părinţilor lor; de exemplu. țac? 
poate avea numai cel mult min(a, c) elemente. Aceasta se numeşte proprietatea de închidere în jos.) 

Regulile de asociere sunt de obicei necesare pentru a satisface un suport minim specificat 
de utilizator şi o încredere minimă specificată de utilizator în același timp. Generarea regulilor de 
asociere este de obicei împărțită în două etape separate: 


1. Se aplică un prag minim de asistenţă pentru a găsi toate seturile de articole frecvente 


dintr-o bază de date. 
2. constrângere minimă de încredere se aplică acestor seturi frecvente de articole pentru 


a forma reguli. 
In timp ce al doilea pas este simplu, primul pas necesită mai multă atenţie. 


Găsirea tuturor seturilor de articole frecvente într-o bază de date este dificilă, deoarece 


presupune căutarea tuturor seturilor de articole posibile (combinaţii de articole). Setul de seturi de 
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articole posibile este setul de putere peste 7 şi are dimensiunea 2” -/ (excluzând setul gol care nu 
este un set de articole valid). Deşi dimensiunea setului de putere creşte exponențial în numărul de 
elemente n în /, este posibilă căutarea eficientă folosind proprietatea de închidere în jos a 
suportului (numită şi anti-monotonitate) care garantează că pentru un set de articole frecvente, 
toate subseturile sale sunt de asemenea, frecvente şi, prin urmare, pentru un set de articole rar, 
toate super-seturile sale trebuie să fie, de asemenea, rare. Exploatând această proprietate, algoritmii 


eficienți (de exemplu, Apriori şi Eclat) pot găsi toate seturile de articole frecvente. 


Istorie 


Conceptul de reguli de asociere a fost popularizat în special datorită articolului din 1993 al 
lui Agrawal şi colab., care a obţinut peste 18.000 de citări conform lui Google Scholar, în august 
2015, şi este, prin urmare, una dintre cele mai citate lucrări din domeniul mineritului de date. Cu 
toate acestea, este posibil ca ceea ce se numeşte acum „reguli de asociere” să fie similar cu ceea 
ce apare în lucrarea din 1966 despre GUHA, o metodă generală de extragere a datelor dezvoltată 
de Petr Hajek şi colab. 

O utilizare timpurie (circa 1989) a suportului minim și a încrederii pentru a găsi toate 
regulile de asociere este cadrul de modelare bazată pe caracteristici, care a găsit toate regulile cu 


supp(X) şi conf(X => Y) mai mari decât constrângerile definite de utilizator. 


Măsuri alternative de interes 


Pe lângă încredere, au fost propuse şi alte măsuri de interes pentru reguli. Câteva măsuri 


populare sunt: 


e Toată încrederea 

e Puterea colectivă 

e Convingerea 

e  Pârghia 

e Creşterea (numit iniţial dobândă) 


Mai multe măsuri sunt prezentate şi comparate de Tan şi colab. şi de Hahsler. Căutarea 
tehnicilor care să modeleze ceea ce a cunoscut utilizatorul (și folosirea acestor modele ca măsuri 


de interes) este în prezent o tendinţă de cercetare activă sub numele de „Interesantitate subiectivă”. 
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Asociaţii statistice solide 


O limitare a abordării standard de a descoperi asocieri este că, prin căutarea unui număr 
masiv de asocieri posibile pentru a căuta colecții de articole care par a fi asociate, există un risc 
mare de a găsi multe asocieri false. Acestea sunt colecții de elemente care apar concomitent cu o 
frecvență neașteptată în date, dar o fac doar întâmplător. De exemplu, să presupunem că luăm în 
considerare o colecție de 10.000 de articole şi căutăm reguli care conțin două articole în partea 
stângă şi 1 articol în partea dreaptă. Există aproximativ 1.000.000.000.000 de astfel de reguli. Dacă 
aplicăm un test statistic pentru independenţă cu un nivel de semnificaţie de 0,05 înseamnă că există 
doar 5% şanse de a accepta o regulă dacă nu există asociere. Dacă presupunem că nu există 
asociaţii, ar trebui să ne aşteptăm totuşi să găsim 50.000.000.000 de reguli. Descoperirea statistică 
a asocierilor controlează acest risc, în majoritatea cazurilor reducând riscul de a găsi asocieri false 


la un nivel de semnificaţie specificat de utilizator. 
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